A method to solve the problem of missing data, outlier data and noisy data in order to improve the performance of human and information interaction

نویسندگان

چکیده مقاله:

Abstract Purpose: Errors in data collection and failure to pay attention to data that are noisy in the collection process for any reason cause problems in data-based analysis and, as a result, wrong decision-making. Therefore, solving the problem of missing or noisy data before processing and analysis is of vital importance in analytical systems. The purpose of this paper is to provide a method to identify noisy data, outliers and missing data and provide a suitable solution for these data. Methodology: This study is an applied research. Data mining techniques including binning smoothing and regression model have been used to identify and replace outlier and noisy data. Findings: The results of the tests performed in the real environment related to the data of social networks show the proper performance of the proposed method. It has also been shown that the proposed method has higher accuracy compared to the methods of binning smoothing, average and linear regression. So that for the data related to the tweet section, the mean squared error obtained for the proposed method was equal to 0.04, the binning smoothing method was equal to 0.38, the linear regression method was equal to 0.05 and the average method was equal to 0.06. Conclusion: The method presented in this paper can help identify noisy data, outliers and missing data and smooth them with the aim of improving the performance of using and processing information and thus improving human and information interaction.  

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the clustering and classification data mining techniques in insurance fraud detection:the case of iranian car insurance

با توجه به گسترش روز افزون تقلب در حوزه بیمه به خصوص در بخش بیمه اتومبیل و تبعات منفی آن برای شرکت های بیمه، به کارگیری روش های مناسب و کارآمد به منظور شناسایی و کشف تقلب در این حوزه امری ضروری است. درک الگوی موجود در داده های مربوط به مطالبات گزارش شده گذشته می تواند در کشف واقعی یا غیرواقعی بودن ادعای خسارت، مفید باشد. یکی از متداول ترین و پرکاربردترین راه های کشف الگوی داده ها استفاده از ر...

investigating the interaction of language knowledge and strategic competence in the performance of efl learners on reading-to-write and writing-only test tasks

این مطالعه به دو روش کمی و کیفی و با هدف بررسی استراتژی های فراشناختی فراگیران زبان انگلیسی به عنوان زبان خارجی در دو آزمون نوشتن و نوشتن ترکیبی انجام پذیرفت. در بخش کمی برای سنجش میزان استراتژی های فراشناختی از یک پرسشنامه که بر اساس مدل بکمن و پالمر (1996) ساخته شده بود استفاده شد. پایایی و روایی سازه ی پرسشنامه هنگام مطالعه ی پایلوت و روایی محتوای آن با جمع آوری نظرات نُه متخصص در رشته سنجیده...

data mining rules and classification methods in insurance: the case of collision insurance

assigning premium to the insurance contract in iran mostly has based on some old rules have been authorized by government, in such a situation predicting premium by analyzing database and it’s characteristics will be definitely such a big mistake. therefore the most beneficial information one can gathered from these data is the amount of loss happens during one contract to predicting insurance ...

15 صفحه اول

a synchronic and diachronic approach to the change route of address terms in the two recent centuries of persian language

terms of address as an important linguistics items provide valuable information about the interlocutors, their relationship and their circumstances. this study was done to investigate the change route of persian address terms in the two recent centuries including three historical periods of qajar, pahlavi and after the islamic revolution. data were extracted from a corpus consisting 24 novels w...

15 صفحه اول

the role of russia in transmission of energy from central asia and caucuses to european union

پس ازفروپاشی شوروی،رشد منابع نفت و گاز، آسیای میانه و قفقاز را در یک بازی ژئوپلتیکی انرژی قرار داده است. با در نظر گرفتن این منابع هیدروکربنی، این منطقه به یک میدانجنگ و رقابت تجاری برای بازی های ژئوپلتیکی قدرت های بزرگ جهانی تبدیل شده است. روسیه منطقه را به عنوان حیات خلوت خود تلقی نموده و علاقمند به حفظ حضورش می باشد تا همانند گذشته گاز طبیعی را به وسیله خط لوله مرکزی دریافت و به عنوان یک واس...

15 صفحه اول

a frame semantic approach to the study of translating cultural scripts in salingers franny and zooey

the frame semantic theory is a nascent approach in the area of translation studies which goes beyond the linguistic barriers and helps us to incorporate cognitive and cultural factors to the study of translation. based on rojos analytical model (2002b), which centered in the frames or knowledge structures activated in the text, the present research explores the various translation problems that...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 9  شماره 4

صفحات  0- 0

تاریخ انتشار 2023-01

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023